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Sažetak 


Koliko puta ste čuli da su žene lošiji vozači od muškaraca ili da su mladi zbog svoje neopreznosti 
i neiskustva glavni krivci za prometne nesreće? Ovim člankom odlučile smo istražiti govore li i 
statistički podaci u prilog tim tvrdnjama. Također provjeravamo kakav je utjecaj promjene 
Zakona o sigurnosti prometa na cestama na broj poginulih, te utječe li obrazovanje vozača na 
učestalost njihova stradavanja u prometnim nesrećama. 

Od 2004. do 2008. godine u Hrvatskoj se dogodilo 307 470 prometnih nesreća u kojima je 
poginulo 3102 ljudi. Ove zastrašujuće brojke dovoljan su razlog da se ovo istraživanje ne shvati 
olako. 


1Uvod 


U posljednjih nekoliko godina u Hrvatskoj je sve izraženiji problem nesigurnosti na cestama i 
velikog broja prometnih nesreća. Svakodnevno smo okruženi lošim vijestima s prometnica te 
pokušajima da se promjenama zakona i akcijama MUP-a takvo stanje promijeni. Ponukani time, 
odlučile smo detaljnije istražiti neke od aspekata te crne statistike. 


Točnije, ciljevi ovog rada su: 


ispitati ovisnost smrtnosti po dobnim skupinama o spolu, dobu dana i danu u tjednu 
ispitati ovisnost smrtnosti o stupnju obrazovanja u svim dobnim skupinama 
odrediti očekivanu dob vozača u trenutku nesreće 


provjeriti utjecaj promjene Zakona o sigurnosti prometa na cestama na smrtnost u dobnoj skupini 20 - 
29 


Prije analize podataka, važno je upoznati se s temeljnim pojmovima korištenima u članku, pa 
slijedi kratak prikaz glavnih definicija koje se spominju u nastavku. 


Statistika je skup ideja i metoda koje se upotrebljavaju za prikupljanje i interpretaciju podataka u 
nekom području istraživanja te za izvođenje zaključaka u situacijama gdje su prisutne 
nesigurnosti i varijacije. 


Statistička populacija je potpun skup mogućih mjerenja ili podataka o nekom svojstvu koji 
odgovaraju cijeloj familiji jedinki koju se promatra. U našem slučaju populaciju čine 
vozači/vozačice koji su poginuli u prometnim nesrećama u razdoblju od srpnja 2004. do lipnja 
2009. Podaci su dobiveni iz Državnog zavoda za statistiku, a među ostalim sadržavaju 
informacije o dobnoj, spolnoj i obrazovnoj strukturi poginulih te o mjesecima, odnosno danima 
kad su se nesreće dogodile. 


Svrha procesa prikupljanja podataka je izvođenje zaključaka o populaciji. Budući da nije uvijek 
moguće prikupiti sve podatke o području istraživanja, zaključci izvedeni statističkom analizom su 
nesigurni jer se zasnivaju na promatranju samo manjeg dijela populacije, tj. na nepotpunim 
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podacima. Skup mjerenja na tom dijelu populacije proveden tijekom istraživanja nazivamo 
uzorak. Naš uzorak čini dio vozača iz već navedene populacije odabranih na slučajan način. 


Cilj statističke analize je na osnovi podataka iz uzorka izvesti određene zaključke o populaciji te 
ocijeniti nesigurnosti koje su obuhvaćene tim zaključivanjem. 


Za grafički prikaz podataka, kao i računanje konkretnih vrijednosti pri provođenju statističkih 
testova koristili smo se programom R [3]. 


2Opisna statistika 


Opisna statistika je grana statistike koja se bavi predočavanjem i opisivanjem glavnih 
karakteristika prikupljenih podataka. 


Za početak, korisno je podatke prikazati grafički, za što smo se koristili histogramima i 
strukturnim dijagramima. 


Općenito, histogram je definiran kao način prikazivanja podataka raspoređenih u određene 
kategorije ili grupe. Kategorije, u koje smo grupirali podatke, nalaze se na osi apscisa, a 
prikupljeni podaci koji pripadaju određenoj kategoriji nalaze se na osi ordinata. 


Kod strukturnog dijagrama svaka je kategorija ili grupa prikazana kružnim isječkom čija je 
površina proporcionalna udjelu te kategorije u uzorku. 


Ovim izborom prikaza podataka dobiven je izvrstan pregled raspoređenosti broja nastradalih 
kroz mjesece u godini, te dobar uvid u spolnu i dobnu strukturu poginulih u promatranom 
razdoblju (slika 1). 
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Slika 1: Histogram relativnih frekvencija broja poginulih tijekom 12 mjeseci 


Iz histograma je očito da najviše ljudi pogine u srpnju, što je vjerojatno posljedica činjenice da 
tada najviše Hrvata kreće na godišnji odmor. lako je uvriježeno mišljenje da su zimski mjeseci 
najopasniji za vozače zbog loših vremenskih uvjeta, iznenađujuće je da je najmanja smrtnost u 
siječnju i veljači. 
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Smrtnost po spolu 
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Slika 2: Strukturni dijagram strukture poginulih 
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Smrtnost po dobnim skupinama 
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Slika 3: Strukturni dijagram strukture poginulih 


Iz strukturnih dijagrama (slike 2 i 3) slijedi da najviše poginulih ima u dobnoj skupini od 20 do 
29. Također možemo primijetiti da se broj poginulih smanjuje po dobnim skupinama, što govori 
da su stariji vozači oprezniji od onih u srednjim godinama, a oni u dobi od 20 do 29 najrizičnija 
su skupina. 


lako se za žene govori da su lošiji vozači od muškaraca, sa strukturnog dijagrama po spolu 
vidimo da pogine gotovo 7 puta više muškaraca nego žena. 


3Testiranje statističkih hipoteza 


Tijekom istraživanja mjeri se neko numeričko ili nenumeričko obilježje koje označavamo S XX. 
Rezultat mjerenja obilježja XX označavamo s xx. Slučajni uzorak tada možemo prikazati kao 
(X1,...Xn)(X1,....Xn), gdje je nn duljina uzorka, a s (x1,...,xn)(x1,....xn) označiti jednu realizaciju tog 
uzorka. 


Opažene frekvencije definiramo kao Nj=Xni=11(Xi=aj)Nj=)i=1n1(Xi=aj), j=1,...kj=1,..,k, pri 
čemu izraz 1(Xi=aj)1(Xi=aj) poprima vrijednost 1 ako je Xi=ajXi=aj, a inače poprima vrijednost 0, 
gdje je ajaj jedan od rezultata mjerenja obilježja XX u uzorku duljine nn. 


Broj NjnNjn zove se relativna frekvencija. 
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Statistička hipoteza je bilo koja pretpostavka o distribuciji obilježja XX, tj. pretpostavka da XX 
ima sljedeću distribuciju: 


(a1p1(6)a2p2(0)......akpk(0)), 
(a1a2...akp1(6)p2(0)...pk(0)), 


pri čemu 00 označava parametre o kojima ta distribucija može ovisiti, a1,a2,...,aka1,a2,...,ak 
označavaju rezultate mjerenja, a p1(6),p2(0),....pk(60)p1(0),p2(0),...,pk(0) vjerojatnosti da će se ti 
rezultati postići. 

S HOHO označavamo hipotezu koju želimo dokazati (to je tzv. nul-hipoteza), a sH1H1 njoj 
alternativnu hipotezu. 


Želimo na osnovi realizacije slučajnog uzorka za obilježje XX donijeti odluku hoćemo li odbaciti 
hipotezu HOHO ili nećemo. Postupak donošenja odluke o odbacivanju ili neodbacivanju te 
statističke hipoteze zove se testiranje statističkih hipoteza. 


Budući da su sve odluke bazirane na uzorcima koji nisu 100% pouzdani, niti zaključak 
statističkog testa nije 100% pouzdan. Test će biti potpun ako možemo procijeniti vjerojatnosti 
mogućih pogrešaka u zaključivanju. U većini slučajeva moguće je za zadanu razinu značajnosti 
testa aa, 0<a<10<a<1, među testovima kojima vjerojatnost pogreške prve vrste ne prelazi broj 
aa, naći test s najmanjom vjerojatnosti pogreške druge vrste. Pogrešku prve vrste radimo kad 
odbacujemo hipotezu HOHO i ona je istinita, a pogrešku druge vrste radimo kad zadržavamo 
hipotezu HOHO i ona je pogrešna (tj. hipoteza H1H1 je istinita). 


Kako na temelju dobivenih podataka i uz unaprijed određenu razinu značajnosti zaključiti 
odbacuje li se hipoteza HOHO i s kojom vjerojatnošću? 


Prvo moramo izračunati vrijednost rezultata statističkog testa (test se odabire prema vrsti 
hipoteza), a zatim tu vrijednost usporediti s graničnom vrijednošću. Granična vrijednost je 
vrijednost testa za koju se hipoteza HOHO odbacuje, a ovisi o vrijednostima iz poznate 
distribucije vjerojatnosti specifične za odabrani test. Područje vrijednosti za koje se HOHO ne 
odbacuje nazivamo kritičnim područjem testa. 


Jedan od najčešće korištenih testova u statistici je Pearsonov x2x2-test koji ćemo ovdje navesti, 
kako bi nam bio matematička podloga za daljnja istraživanja. 


Definirajmo prvo očekivane frekvencije kao nj(8)=npj(6),nj(0)=npj(0),j=1,...kj=1,...,k. 


Neka je D(8)=Xki=1(Nj-nj(0)nj(6)2D(0)=Yi=1k(Nj-nj(0))nj(0)2. Mi ćemo promatrati 
jednostavniji slučaj kada je hipotezom HOHO zadan parametar 0000, čime je definirana testna 
statistika H=D(00)H=D(60). 


Također definiramo broj stupnjeva slobode s df=k-1df=k-1, a ako XX ima x2x2-razdiobu, 
umjesto XX pišemo x2(df)x2(df). x2x2-razdioba je jedna od najčešćih razdioba u statistici i 
vrijednosti koje ona poprima zadane su tablično u tzv. tablici kvantila x2x2-razdiobe. 


Sada smo spremni izreći već spomenuti Pearsonov teorem o x2x2-testu: 
Ako je HOHO točna hipoteza, onda H—>Dyx2(k-1)H-—>Dyx2(k-1), kada n>oon—>oo. 


Za zadanu razinu značajnosti aa, hipotezu HOHO odbacujemo ako je opažena vrijednost 
h>x2a(k-1)h>xa2(k-1), gdje vrijednost x2a(k- 1)xa2(k-1) čitamo iz tablice kvantila x2x2- 
razdiobe. 
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S —>D—>D označavamo konvergenciju po distribuciji, što jednostavnim rječnikom rečeno znači 
da se razdioba vrijednosti s lijeve strane približava razdiobi s desne strane kada n>oon—>oo. Cesto 
se koristi i oznaka ==. 


Pearsonov x2x2-test najčešće se upotrebljava ako je riječ o kvalitativnim podacima ili ako tim 
podacima distribucija značajno odstupa od normalne. Njegova primjena posebno se ističe u 
slučajevima kada želimo utvrditi odstupaju li dobivene frekvencije (iz slučajnog uzorka) od 
frekvencija koje bismo očekivali po hipotezi koju ispitujemo. Ovim testom također možemo 
ispitati povezanost dviju varijabli te vjerojatnost njihove povezanosti. 


Općenito, x2x2-test najpouzdaniji je u sljedećim slučajevima: 


(1) Kada se ispituju odstupanja frekvencije uzorka od očekivane frekvencije uz zadanu hipotezu. 


(2) Kada se uspoređuju dva ili više nezavisnih uzoraka po nekom svojstvu, pri čemu su nam poznate 
frekvencije svakog od uzoraka. 


3.1Ovisnost smrtnosti u pojedninoj dobnoj skupini o spolu 


Jedno od prvih pitanja koje nam se nametnulo pri proučavanju podataka jest jesu li spol vozača i 
njihova dob zavisna obilježja, tj. možemo li, s određenom sigurnošću, zaključiti da žene, odnosno 
muškarci imaju jednaku vjerojatnost pogibije u određenoj dobi. Možda naizgled ovo izgleda kao 
trivijalno, gotovo nevažno pitanje, no u statistici nas odgovori često mogu iznenaditi te ništa ne 
treba uzimati "Zdravo za gotovo". 


S obzirom na to da ovo ispitivanje spada u već navedene primjene x2x2-testa, odlučili smo se za 
njegovu varijantu x2x2-test nezavisnosti: 


Promatramo dva različita obilježja XX i YY. Neka je: 


nn duljina uzorka, 
rr broj različitih vrijednosti koje poprima obilježje XX, 


cc broj različitih vrijednosti koje poprima obilježje YY. 


Neka je ((X1,Y1),...,(Xn;Yn))((XT,Y1),....(Xn,Yn)) slučajni uzorak iz dvodimenzionalnog statističkog 
obilježja (X,Y)(X,Y), pri čemu XX može poprimiti vrijednosti (a1,...,arKa1,...,ar), a YY vrijednosti 
(b1,....bcHb1,...,bc). 


X2x2-test nezavisnosti je statistički test kojim se testiraju hipoteze 
HOHO: XX i YY su nezavisna obilježja H1H1 : XX i YY su zavisna obilježja 


Po Pearsonovu teoremu, uz sitne promjene, možemo zaključiti da je testna statistika dana 

formulom 

H=X)i=1r9j=1c(Nij-np“iq*j)2np“iq“j-x2(d0, 
H=X)i=1r9j=1c(Nij-np“iq/j)2np/iq*j-x2(df, 

gdje je 


NijNij opažena frekvencija od (ai,bj)(ai,bj) u dvodimenzionalnom statističkom uzorku (X,Y)(X/Y), 
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p/i=Ninp*i=Nin, pri čemu je NiNi opažena frekvencija od aiai u uzorku za XX, 


q“j=Mjnq/j=Mjn, pri čemu je MjMj opažena frekvencija od bjbj u uzorku za YY. 


Područje [x20(df),+00)[xa2(df),+00), gdje je df=rc-(r-1)-(c-1)-1df=rc-(r-1)-(c-1)-1, nazivamo 
kritično područje. Ako je he[x2a(df),+0)he[xa2(df),+00), tada odbacujemo hipotezu HOHO, a 
ako je hh izvan tog intervala, onda je ne odbacujemo. Broj x2a(df)xa2(df) čitamo iz tablice 
kvantila x2x2-razdiobe. 

U našem slučaju obilježje XX (= spol) poprima vrijednosti muškarac, žena, a obilježje YY (= 
dobna skupina) poprima vrijednosti dobnih skupina, tj. 20 - 29, 30 - 39, 40 - 49, 50 - 59. 


Podaci su prikazani sljedećom tablicom: 


20-29 30-39 40-49 50-59 sy 
Muškarac 327 186 161 131 805 
Žena 37 28 24 23. 112 


3x 364 214 185 154.917 


X2x2-testom nezavisnosti koristimo se za testiranje sljedećih hipoteza: 


HOHO: Spol i dobna skupina su nezavisna obilježja H1H1: Spol i dobna skupina nisu nezavisna 
obilježja 


Test provodimo uz razinu značajnosti aa=5%. 
Račun provodimo u programu R [3]: 


M 


x<-matrix(c(327,186,161,131,37,28,24,23) ,nrow=2,byrow=T) 
> x 

[ [1] [21 [31] [>4]1] 

[[1,] 327 186 161 131] 

[[2,] 37 28 244. 23] 

chisq.test(x) 


vV 


Pearson's Chi-squared test 
data: x 
X-squared = 2.7395, df = 3, p-value = 0.4336 


Odavde dobivamo da je h=2.7395h=2.7395 i df=3df=3. 

Promatramo u kojem intervalu se nalazi hh. Budući da je 
h<x20.05(3)=7.8147h<x0.052(3)=7.8147, tj. hh nije unutar kritičnog područja, ne odbacujemo 
hipotezu HOHO i možemo zaključiti da su obilježlja XX i YY nezavisna. Dakle, smrtnost u dobnim 
skupinama ne ovisi o spolu pa muškarci/žene imaju jednaku vjerojatnost da poginu u bilo kojoj 
starosnoj dobi. 


3.2Ovisnost smrtnosti u pojedninoj dobnoj skupini o danima u tjednu 


Jeste li se ikada zapitali pogine li više mladih vikendom ili u tjednu? Upravo nas je to potaknulo 
da provjerimo tvrdnju, često isticanu u medijima ,da najviše mladih nastrada u prometnim 
nesrećama tijekom vikenda. 
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Ponovo se koristimo x2x2-testom nezavisnosti, pri čemu obilježje XX poprima vrijednosti dana u 
tjednu (ponedjeljak, utorak, srijeda, četvrtak, petak, subota i nedjelja), a obilježje YY poprima 
vrijednosti dobnih skupina, tj. 20 - 29, 30 - 39, 40 - 49, 50 - 59. 


Podaci su prikazani sljedećom tablicom: 


20 - 29 30-39 40-49 50-59 xy 
Ponedjeljak 33 25 19 24.101 
Utorak 2i 25 35 18. 105 
Srijeda 37 25 22 18. 102 
Četvrtak 34 19 20 19 92 

Petak 51 36 25 26 138 
Subota 92 40 36 26 194 
Nedjelja 90 44 28 23 185 
> 364 214 185 154. 917 


Koristimo se x2x2-testom nezavisnosti (vidi 3.1) za testiranje sljedećih hipoteza: 
HOHO: Dan u tjednu i dobna skupina su nezavisna obilježja H1H1: Dan u tjednu i dobna skupina 
nisu nezavisna obilježja 


Test provodimo uz razinu značajnosti aa=5%. 
Računanjem u R-u [3], kod je vrlo sličan onome iz točke 3.1, dobiveni su sljedeći rezultati: 
h=34.527h=34.527, df=18df=18. 


Budući da jeh>x20.05(18)=28.8693h>yx0.052(18)=28.8693, odbacujemo hipotezu HOHO (jer se 
hh nalazi u kritičnom području) i možemo zaključiti da obilježja XX i YY nisu nezavisna. Dakle, 
smrtnost u dobnim skupina ovisi o danu u tjednu. 


Budući da XX i YY nisu nezavisna obilježja, sljedeće što nas zanima jest koliko jedno obilježnje 
ovisi o drugom. Konkretno, u našem slučaju, koliko su dobne skupine i dani u tjednu 
međusobno povezani. U statistici se ta povezanost mjeri stupnjem statističke zavisnosti koji je 
definiran formulom: 


o=f2minfr,cl- 1to=f2minfr,cl-1, 


gdje je f2=Xri=1Xcj=1NijNiMj-1f2=)i=1rj=1cNijNiMj-1 (za oznake vidi 3.1). 
On je izračunat u R-u [3] i iznosi 1.27% pa je ta zavisnost veoma slaba, svakako slabija nego što 
bi to bilo za očekivati. 


3.3Ovisnost smrtnosti u pojedninoj dobnoj skupini o dobu dana 


Sljedeće što ispitujemo jest distribucija smrtnosti po dobnim skupinama u određenom dijelu 
dana. Dijelove dana možemo promatrati kao nezavisne populacije pa se x2x2-test nameće kao 
logičan izbor. Ovu vrstu x2x2-testa u kojem se ispituje distribucija istog obilježja u više različitih 
uzoraka nazivamo x2x2-test homogenosti. 
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Pretpostavimo da nas zanima distribucija istog diskretnog statističkog obilježja XX, koje poprima 
međusobno različite vrijednosti (a1,...,akKa1,...,ak), u raznim populacijama. 


Želimo na osnovi nezavisnih uzoraka uzetih iz tih populacija testirati nul-hipotezu da su razdiobe 
od XX u tim populacijama jednake, tj. homogene. 


Neka je mm broj populacija. Iz svake populacije nezavisno odaberemo slučajni uzorak koji 
predstavlja obilježje XX u ii-toj populaciji i označimo ga s XiXi, i=1,...,.mi=1,...,m. 


x2x2-test homogenosti je statistički test kojim se testiraju hipoteze 


HOHO: X1,...,XmX1,....Xm su jednako distribuirani 
H1H1: postoje ii i jj takvi da se distribucija od XiXi razlikuje od distribucije od XjXj. 


Po Pearsonovom teoremu slijedi da je testirana statistika dana formulom 
H=>)mi=1)kj=1(Nij-n/ij)2n/ij+x2(dDH=Xi=1m)j=1k(Nij-n/ij)2n/ij+x2(d), 
gdje je 

NijNij opažena frekvencija od aiai u uzorku XiXi, 

nAijsniMjnn/ijeniMjn, nizkj=1Nijni=Xj=1kNij, MjeXmi=1NijMj=yi=1mNij, n=Xkj=1Mjn=Xj=1kMj. 


Područje [x20(df),+00)[xa2(df),+00), gdje je df=(m-1)(k-1)df=(m-1)(k-1), je kritično područje. 
Ako je he[x2a(df),+0)he[xa2(df), +0), tada odbacujemo hipotezu HOHO, a ako je izvan tog 
intervala, onda je ne odbacujemo. Broj x2a(df)xa2(df) čitamo iz tablice kvantila x2x2-razdiobe. 


Podaci su dani sljedećom tablicom: 


20-29 30-39 40-49 50-59 yy 


<<0-6]] 133 52 18 17. 220 
<<6-12]] 44 28 46 4 162 
<<12-18]] 68 61 59 55 243 
<<18-24]] 119 74 62 37 (292 
sy 364 215 185 153 917 


Koristimo se x2x2-testom homogenosti da bismo testirali hipotezu: 
HOHO: smrtnost u svakom promatranom dijelu dana jednako je distribuirana 


Naš test ćemo provesti uz razinu značajnosti aa=5%. 
Računanjem u R-u [3] dobiveni su sljedeći rezultati: h=94.7825h=94.7825, df=9df=9. 


Iz danih podataka vidimo da jeh>x20.05(9)=16.91898h>x0.052(9)=16.91898, tj. hh je unutar 
kritičnog područja, odbacujemo hipotezu HOHO i zaključujemo da smrtnost po dobima dana nije 
jednako distribuirana. 


3.4Utjecaj obrazovanja na smrtnost u svim dobnim skupinama 
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Proučavanjem podataka, nametnulo nam se pitanje ima li stupanj obrazovanja utjecaj na 
smrtnost u svim dobnim skupinama, pa smo odlučili provjeriti tu pretpostavku na vozačima sa 
završenom samo srednjom školom, tj. željeli smo odrediti postotak pp takvih vozača u ukupnoj 
populaciji poginulih. 


Za razliku od prijašnjih testova, sada ne uspoređujemo nekoliko populacija, već provjeravamo 
svoju pretpostavku unutar jedne populacije, pri čemu podatke tumačimo u odnosu na neko 
zadano obilježje (kod nas: završena samo srednja škola). To, naravno, znači da nam je potrebna 
drugačija testna statistika koja će nekako "odrediti" očekivani broj poginulih vozača sa 
završenom samo srednjom školom. 


Kao i prije, ideja je pronaći takvu testnu statistiku koja će naše podatke svesti na neku nama 
poznatu distribuciju iz koje ćemo poslije lako pročitati s kojom vjerojatnošću smo postavili točnu 
hipotezu. Ovdje smo se poslužili poznavanjem Centralnog graničnog teorema, iz kojeg se 
odmah nametnula tražena statistika. 


Navodimo Centralni granični teorem (CGT), kojim ćemo se poslije nekoliko puta koristiti: 


Neka je (Xn:neN)(Xn:neN) niz nezavisnih, jednako distribuiranih slučajnih varijabli s očekivanjem 
UH i varijancom 02902, 0<o2<+00<g2<+0, te neka je Tn=>nk=1XkTn=)k=1nXk. Tada vrijedi 
Tn-nuonv —>DN(0,1)Tn-nuon—>DN(0,1) kad n>on—>oo. 


lako smo CGT naveli u općenitom slučaju, nas zanima nešto jednostavnija situacija. Slučajni 
uzorak poginulih vozača možemo promatrati kao niz nezavisnih jednako distribuiranih 
Bernoullijevih slučajnih varijabli koje poprimaju vrijednost O ili 1 u ovisnosti o nekom zadanom 
svojstvu, i to s vjerojatnošću pp, odnosno 1-p1-p. 


Konkretno, mi ćemo svakog poginulog vozača koji ima završenu najviše srednju školu 
reprezentirati jedinicom u uzorku, dok će ostali biti reprezentirani nulom. Ovako promatran niz 
varijabli ima nešto jednostavnije formule varijance (o2=p(1-p))(o2=p(1-p)) i očekvivanja (u=p) 
(u=p), pa je i testna statistika nešto jednostavnija nego u općenitom Centralnom graničnom 
teoremu. Također, sada je jasno da zapravo tražimo vjerojatnost pp, tj. vjerojatnost da je poginuli 
vozač u uzorku imao završenu samo srednju školu. 


Test ovoga oblika, u kojem računamo očekivanje za populaciju reprezentiranu Bernoullijevim 
varijablama, nazivamo Z-test i definiramo testnu statistiku (s opravdanjem u CGT-u i jer je 
NX n=TnnX n=Tn) formulom: 


Z=X n-pp(1-p)vn--v=N(0,1)Z=X n-pp(1-p)n=N(0,1). 


Ovo je najjači test za računanje očekivanja uz razinu značajnosti aa , gdje je 


nn duljina uzorka 


X nX n relativna frekvencija vozača sa završenom samo srednjom školom u uzorku. 


Promatrajući svoje podatke, uočili smo da najveći broj poginulih vozača ima završenu samo 
srednju školu pa smo opisanim Z-testom odlučili provjeriti svoje očekivanje da takvih vozača ima 
otprilike 70%. 


Ovdje je važno napomenuti da je statističko istraživanje često puno pretpostavki dobivenih tzv. 
"metodom pokušaja i pogrešaka", te često nije moguće iz prve pogoditi koja je hipoteza 
optimalna. 
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Dakle, testirat ćemo sljedeće hipoteze: 
HOHO: p=0.70p=0.70 H1H1: p>0.70p>0.70. 


Test ćemo provesti uz razinu značajnosti aa=5%. 
Za podatke dobivamo X n=0.7388X n=0.7388. 


Uvrštavanjem konkretnih vrijednosti iz uzorka duljine n=781n=781 dobivamo sljedeće: 


2=0,1288-0./0.F03-====- V781---yv=2.3662>70.05=1.64, 
z=0.7388-0.70.7-0.3781=2.3662>z0.05=1.64, 


gdje broj z0.05z0.05 čitamo iz tablice standardne normalne distribucije 
(z0.05=Q(1—0.05)z0.05=0D(1—0.05)). 

Promatramo u kojem intervalu se nalazi zz. Ako je ze[z0.05,+00)2€[70.05,+00), tada odbacujemo 
hipotezu HOHO, u protivnom je ne odbacujemo. 


Dobiveni rezultat je iz intervala [z0.05,+00)[20.05,+0.0) pa odbacujemo hipotezu HOHO u korist 
hipoteze H1H1 i možemo zaključiti da više od 70% poginulih ima završenu samo srednju školu. 


3.5Očekivana dob vozača u trenutku nesreće 


Pitanje koje se prirodno nameće je očekivana dob u trenutku nesreće. Točnije, zanima nas 
možemo li pronaći neki interval godina vozača u kojem je vjerojatnost nesreće najveća. U 
statistici takav interval nazivamo aproksimativni pouzdani interval. 


Prema CGT teoremu znamo da je Z=X n-uon--v=N(0,1)Z=X n-uon=N(0,1) za velike nn. 
Po formuli za vjerojatnost vrijedi: P(|Z[<za2)=1-oaP(|Z|<za2)=1-a, 
što je ekvivaletno s P(za2<X n-uSnn--v<za2)=1-oaP(za2<X n-uSnn<za2)=1-a, 


što je ekvivaletno s 
P(X n-za2Snnv <u<X n+za2Snnv)=1-aP(X n-za2Snn<u<X n+za2Snn)=1-a. 


Dakle, interval je dan formulom 
[X n-za2-Snnv,X n+za2-SnnvlIX n-za2-Snn,X n+za2-Snn], 
gdje je 
nn duljina uzorka, 
xixi godine života ii-te osobe u trenutku nesreće, 
X n=Xni=1xinX n=)i=1nxin, 
S2n=1n-1Xni=1(xi-X n)2Sn2=1n-1)i=1n(xi-X n)2 procjenitelj za varijancu, 
a broj za2za2 čitamo iz tablice standardne normalne distribucije. 


Iz uzorka duljine n=917n=917 dobivamo X n=35.46X n=35.46 i Sn=11.72Sn=11.72. Dakle, 
aproksimativni 95% pouzdani interval za očekivanu dob u trenutku pogibije je [34.7,36.22] 
[34.7,36.22] pa zaključujemo da je očekivana dob između 34 i 37 godina. 
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3.6Utjecaj promjene Zakona o sigurnosti prometa na cestama na smrtnost u dobnoj skupini od 
20 - 29 


Iz strukturnog dijagrama o udjelu pojedinih dobnih skupini u ukupnom broju poginulih, vidjeli 
smo da je najugroženija skupina u dobi od 20 do 29 godina. S obzirom na to da se i Zakon o 
sigurnosti prometa na cestama u 2008. bazirao upravo na toj dobnoj skupini, odnosno mladim 
vozačima, želimo utvrditi je li on uistinu utjecao na smanjenje smrtnosti. 


Promatramo podatke o poginulima u toj dobnoj skupini u razdoblju od godine dana nakon 
donošenja prvog zakona u 2004. godini (prvo razdoblje) te od godinu dana nakon donošenja 
novog zakona u 2008. godini (peto razdoblje). 


Pretpostavljamo da novi zakon ima manji utjecaj na smrtnost u dobnoj skupini od 20 do 29 od 
starog pa želimo naći neki test kojim bismo mogli usporediti "uspješnost" ovih dvaju zakona. Za 
početak, tu "uspješnost" zakona definiramo kao udio poginulih vozača u dobi od 20 do 29 
godina u cjelokupnom broju poginulih. Sada je još potrebno naći najbolji način da usporedimo 
omjere prvog i petog razdoblja. 


Odabrali smo test omjera proporcija koji se koristi upravo u situacijama kada uspoređujemo 
"uspješnost" nekog obilježja u nezavisnim populacijama. 


Test omjera proporcija provodi se na dvije nezavisne populacije s nekim obilježjem XX. 


Označimo s X1X1 slučajnu varijablu koja predstavlja obilježje XX u prvoj populaciji, a s X2X2 
slučajnu varijablu koja predstavlja XX u drugoj populaciji. 


Neka su p1p1 i p2p2 njihove vjerojatnosti uspjeha u svakoj od populacija. 


U osnovnoj nul-hipotezi pretpostavljamo da su vjerojatnosti uspjeha jednake, a druga hipoteza 
je njena alternativa koja ovisi o zadatku. 


Test omjera proporcija definiran je formulom: 


Z=p*2-prip/(1=p\je===-=- VTIni+#Inž-====-- V, 
Z=p"2=p1pMiI-pijtint+eTn2a, 


gdje su n1n1 i n2n2 dovoljno velike populacije (zbog CGT-a), p“1p/1 procjenitelj za p1p1 (tj. 
p*1=p1p*1=p1), p*2p*2 procjenitelj za p2p2 (tj. p*2=p2p*2=p2) i 
p*=n1p*1+n2p*2n1+n2p*=n1p*1+n2p/2n1+n2 procjenitelj zajedničke vjerojatnosti. 

U našem slučaju promatrano obilježje je smrtnost, a populacije su poginuli u prvom i petom 
razdoblju. Označimo vjerojatnosti s p1p1 = omjer poginulih u dobi od 20 do 29 u prvom 
razdoblju, p5p5 = omjer poginulih u dobi od 20 do 29 u petom razdoblju. 


Testiramo sljedeće hipoteze uz razinu značajnosti aa=5%: 

HOHO: p1=p5p1=p5 H1H1: p1<p5p1<p5 

Koristeći se navedenim formulama, za svoje podatke dobivamo ove rezultate: 
n1=157n1=157 
n5=195n5=195 


p“1=56157=0.3567p*1=56157=0.3567 
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p*5=74195=0.3795pA5=74195=0.3795 
p*=0.3693p/ =0.3693 


Z=0.4406<z0.05=1.64Z7=0.4406<70.05=1.64, 


gdje broj z0.05z0.05 čitamo iz tablice standardne normalne distribucije. 


Promatramo u kojem intervalu se nalazi zz. Ako je ze[z0.05,+00)7€[70.05,+00), tada odbacujemo 
hipotezu HOHO, u protivnom je ne odbacujemo. Budući da zz nije iz tog intervala, ne možemo 
odbaciti hipotezu HOHO, odnosno novi i stari zakon imaju jednak utjecaj na smrtnost u dobnoj 
skupini od 20 do 29. 


4Zaključak 


Istaknimo na kraju najzanimljivije rezultate rada: 


unatoč uvriježenoj pretpostavci, žene nisu lošiji vozači od muškaraca, štoviše, gotovo sedam puta manje 
žena pogine u prometnim nesrećama 


smrtnost mladih ovisi o danu u tjednu 
više od 70% poginulih ima završenu samo srednju školu 
očekivana dob u trenutku pogibije je između 34 i 37 godina 


promjena Zakona o sigurnosti prometa na cestama nije utjecala na smanjenje smrtnosti mladih. 
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